### MANUEL MARTINEZ GONZALEZ

Se dispone de un procesador VLIW cuyas instrucciones pueden codificar hasta 3 operaciones.

Los campos de las instrucciones se codifican de la siguiente forma:

Operación Entera | Operación Coma Flotante | Operación Acceso a Memoria

Si tenemos el siguiente código:

for (i = 0; i < 1000; i++)  
$$x[i] = x[i] + y;$$

# y suponemos:

- Carga retardada con 1 ciclo de retardo
- Ciclos operación con coma flotante: 1
- Ciclos operación con enteros: 1
- Salto retardado con 1 ciclo de retardo

Responder a las siguientes cuestiones:

# ¿Cuántos ciclos requiere la ejecución del código no desenrollado?

El código no desenrollado sería:

loop:  $\operatorname{Id} f0, 0(r1)$ 

addi r2, r2, #-1 addd f4, f0, f2 addi r1, r1, #8 bnez r2, loop sd f4, -8(r1)

| Op. Entera       | Op. CF          | Op. Mem       |
|------------------|-----------------|---------------|
| addi r2, r2, #-1 | nop             | ld f0, 0(r1)  |
| addi r1, r1, #8  | nop             | nop           |
| nop              | addd f4, f0, f2 | nop           |
| nop              | nop             | nop           |
| bnez r2, loop    | nop             | nop           |
| nop              | nop             | sd f4, -8(r1) |

Se ejecutan <u>6 operaciones de 18 posibles.</u>

Cada iteración: 6 ciclos -> 6 \* 1000 = 6000 ciclos

# ¿Cuántos ciclos requiere la ejecución del código desenrollado?

El código desenrollado sería:

loop:  $\operatorname{Id} f0, 0(r1)$ 

Id f6, 8(r1)
Id f8, 16(r1)
Id f10, 24(r1)
addi r2, r2, #-4
addd f0, f0, f2
addd f6, f6, f2
addd f8, f8, f2
addd f10, f10, f2
addi r1, r1, #32
sd f0, 0(r1)
sd f6, 8(r1)
sd f8, 16(r1)
sd f10, 24(r1)
bnez r2, loop

| Op. Entera       | Op. CF            | Op. Mem        |
|------------------|-------------------|----------------|
| addi r2, r2, #-4 | nop               | ld f0, 0(r1)   |
| nop              | nop               | ld f6, 8(f1)   |
| nop              | addd f0, f0, f2   | ld f8, 16(r1)  |
| nop              | addd f6, f6, f2   | ld f10, 24(r1) |
| nop              | addd f8, f8, f2   | nop            |
| nop              | addd f10, f10, f2 | sd f0, 0(r1)   |
| addi r1, r1, #32 | nop               | sd f6, 8(r1)   |
| bnez r2, loop    | nop               | sd f8, 16(r1)  |
| nop              | nop               | sd f10, -8(r1) |

Se ejecutan 15 operaciones de 27 posibles.

Cada iteración: 9 ciclos -> 9 \* 250 = **2250 ciclos** 

#### ¿Qué código se ejecuta más rápido?

nop

Se ejecuta más rápido el código desenrollado. Se ha reducido casi 1/3 el tiempo de ejecución.

#### ¿Se podría aprovechar mejor la arquitectura VLIW? ¿Qué técnica utilizarías?

Sí. Aún con el desenrollado de bucles existen demasiadas dependencias dentro de las instrucciones del bucle para obtener el máximo partido de la arquitectura.

Con la "Segmentación Software", método para romper las dependencias de datos existentes dentro del bloque básico que forma el cuerpo de un bucle, se obtendría mejor rendimiento.